Imputations des valeurs manquantes à l'aide d'une régression linéaire

Corrélations entre les variables

Les deux variables les plus corrélées sont length et margin_low (négativement).

Régression linéaire multiple

On constate ici que tous les paramètres sont significatifs , car leur p-valeur est inférieure à 5 %, le niveau de test que nous souhaitons.

Le 𝑅² vaut environ 0.48, et le 𝑅² ajusté est d'environ 0.48.

Cette valeur est plus élevée qu'en régression linéaire simple, et c'est logique, car lorsque l'on rajoute des variables explicatives potentielles, on accroît naturellement la valeur de ces 𝑅².

Nous allons ici réaliser les tests à un niveau 𝛼=5% :

Récupérons $n$, le nombre d'individus de l'échantillon, et $p$, le nombre de variables.

Nous allons mener des analyses sur les valeurs atypiques et/ou influentes en travaillant sur un dataframe appelé analyses.

Calcul des leviers

On peut calculer les leviers comme ceci, en sachant que le seuil des leviers est de $2∗\frac{p}{n}$.

Pour sélectionner les points pour lesquels le levier est supérieur au seuil, on exécute la ligne suivante :

Calcul des résidus studentisés

Si l'on souhaite maintenant calculer les résidus studentisés, nous écrivons ceci, sachant que le seuil pour les résidus studentisés est une loi de Student à n-p-1 degrés de liberté :

Déterminez la distance de Cook

Pour trouver la distance de Cook, nous exécutons ceci :

Le seuil de la distance de Cook est de n-p.

On peut détecter les observations influentes comme ceci :

On ne retire des points qu'après avoir vérifié qu'ils sont effectivement atypiques, voire aberrants, au vu du modèle estimé.

Vérifier la colinéarité des variables

Une autre chose à vérifier est l'éventuelle colinéarité approchée des variables :

Ici, tous les coefficients sont inférieurs à 10, il n'y a donc pas de problème de colinéarité.

Test de l’homoscédasticité

On peut également tester l’homoscédasticité (c'est-à-dire la constance de la variance) des résidus :

La p-valeur est inférieure à $5$%, on rejette l'hypothèse $H0$ selon laquelle les variances sont constantes (l'hypothèse d’homoscédasticité).

Test de la normalité des résidus

Si l'on veut tester la normalité des résidus, on peut faire un test de Shapiro-Wilk.

Ici, l'hypothèse de normalité est remise en cause (p-value < 0.05).

Néanmoins, l'observation des résidus, le fait qu'ils ne soient pas très différents d'une distribution symétrique, et le fait que l'échantillon soit de taille suffisante (supérieure à 30) permettent de dire que les résultats obtenus par le modèle linéaire gaussien ne sont pas absurdes, même si le résidu n'est pas considéré comme étant gaussien.

Imputations

Analyse univariée

ACP

La variable diagonal contribue le plus et positivement à l'axe 2 (coefficient de corrélation de 0.95)

Les variables margin_low et margin_up contribuent le plus et positivement à l'axe 1 (coefficient de corrélation de, respectivement, 0.82 et 0.71). De plus, elles sont bien corrélées (r = 0.43)

La variable lenght contribue négativement à l'axe 1 (coefficient de corrélation de -0.84).

Les variables lenght et margin_low sont assez bien corrélées négativement (r = -0.67).

La variable diagonal contribue fortement (et positivement) à l'axe 2

Les variables margin_low et margin_up contribuent le plus et positivement à l'axe 1.

Les variables height_left et height_right contribuent positivement à l'axe 1.

La variable lenght contribue négativement à l'axe 1.

L'ACP identifie bien les billets en 2 groupes (les vrais et les faux). On peut voir que quelques points se situent entre les deux groupes. Ces point pourraient poser problème plus tard.

K-Means

Méthode des K-Means sur les données d'entrainement

Représentations des billets dans le plan (Train)

Matrice de confusion (Train)

Nous remarquons que certains points, à l'interface entre les 2 clusters, peuvent être mal attribués.

Méthode des K-Means sur les données de test

Représentations des billets dans le plan (Test)

Matrice de confusion (Test)

Nous remarquons que certains points, à l'interface entre les 2 clusters, peuvent être mal attribués.

Régression logistique

On constate ici que certains paramètres ne sont pas significativement différents de 0, car leur p-valeur n'est pas inférieure à 1 %, le niveau de test que nous souhaitons.

Retirez les variables non significatives

On va donc maintenant retirer les variables non significatives. On commence par la moins significative : diagonal, car elle a une p-valeur supérieure à 0.01.

On voit alors que c'est maintenant height_left , avec une p-valeur qui n'est pas significative. On l'enlève donc.

On voit alors que c'est maintenant height_right , avec une p-valeur qui n'est pas significative. On l'enlève donc.

Régression logistique sur les données d'entrainement

Régression logistique sur les données test

Nous avons un excellent modèle puisque l'AUC est très proche de 1.

Représentation des billets dans le plan (Train)

Matrice de confusion (Train)

Nous remarquons que certains points, à l'interface entre les 2 clusters, peuvent être mal attribués.

Représentation des billets dans le plan (Test)

Matrice de confusion (Test)

Nous remarquons que certains points, à l'interface entre les 2 clusters, peuvent être mal attribués.

Algorithmes de detection des faux billets